无监督机器翻译

简介

平行语料比较匮乏

完全无监督 的方式训练 NMT 系统

仅需使用单语语料库

  • 三角剖分(triangulation)
  • 半监督学习技术

在近期关于无监督嵌入映射的研究基础上构建,包含经过少许修改的注意力编码器-解码器模型(attentional encoder-decoder model),该模型使用去噪和回译(backtranslation)结合的方式在单语语料库上进行训练

该模型的基本思想是, 通过将来自不同语言的句子映射到同一个隐空间下来进行句子翻译

对语言 L1 中的每个句子,该系统都通过两个步骤进行训练:

  1. 去噪——利用共享编码器优化对句子带噪声版本进行编码和使用 L1 解码器重构句子的概率;
  2. 回译——在推断模式(inference mode)下翻译该句子(使用共享编码器编码该句子,使用 L2 解码器进行解码),
    利用共享编码器优化对译文句子进行编码和使用 L1 解码器恢复源句子的概率。交替执行这两个步骤对 L1 和 L2 进行训练,对 L2 的训练步骤和 L1 类似。

参考